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摘要 : 
管 研究 领域 的 项 目 数据 ,进行 词 干 还 原 、 


【 目的 】 利 用 文本 语义 组 块 特征 提升 Cosine 文本 相似 度 计算 性 能 。[ 方法 】 获取 NSF 资助 的 关于 碳 纳米 
词性 标注 等 预 处 理 ; 利用 条 件 随机 场 模型 实现 文本 内 容 的 语义 组 块 标 


注 ; 在 此 基础 上 实现 基于 语义 组 块 特征 的 改进 Cosine 文本 相似 度 计算 , 并 与 未 标注 的 数据 进行 相似 度 计算 比较 , 
分 析 实 验 结果 。[ 结果 】 实 验证 明基 于 语义 组 块 特征 的 改进 Cosine 相似 度 计算 结果 比 原始 文本 Cosine 相似 度 


计算 结果 相似 度 均 有 不 同 程度 的 提升 ,在 实验 数据 中 最 


高 的 相似 度 提升 了 26%。[ 局 限 】 依 赖 于 语义 组 块 标注 


性 能 。【 结论 ] 本 文 方法 能 有 效 提升 文本 间 语 义 相 似 度 ， 降 低 向 量 空间 模型 维度 ,提高 计算 效率 , 并 且 具 有 良好 


的 泛 化 能 力 和 和 鲁 棒 性 。 
关键 词 : 文本 相似 度 
分 类 号 : G250 


语义 组 块 ”向 量 空间 模型 ”本 体 


1 3 引 


相似 性 是 自然 世界 中 普遍 存在 的 一 种 关系 ,在 现 
实 世 界 中 任意 两 个 对 象 之 间或 多 或 少 存在 一 定 相似 性 
关系 。 相 似 性 的 大 小 可 以 用 相似 度 定量 表示 。 自 由 文 
本 之 间 同 样 存在 复杂 的 相似 性 关系 , 在 自然 语言 处 理 


了 中 


同一 研究 主题 演化 发 展 变化 情况 ; 学 科 交 又 人 研究 主 
题 重合 情况 ; 通过 与 现 有 研究 主题 相似 度 对 比 发 现 
新 兴 研 究 主题 ; 不 同文 献 研究 内 容 相似 度 情 况 等 一 
系列 问题 。 

因此 , 一 种 富 含 语义 关联 度 的 高 效 文本 相似 度 计 
算 方法 可 以 有 效 地 发 现 不 同文 本 之 间 的 相互 关系 , 在 


中 , 需要 把 这 种 复杂 的 关系 用 一 种 简单 的 数量 来 度量 ， 
文本 相似 度 计算 应 运 而 生 。 文 本 相似 度 计 算是 数据 挖 
据 、 人 工 智 能、 信息 检索 等 领域 研究 的 基本 问题 。 随 着 
文本 相似 度 研究 的 不 断 深入 ， 相 似 度 计算 的 对 象 由 词 
共 现 相似 、 语 法 结构 相似 上 升 到 语义 相似 。 而 精准 高 效 
的 语义 相似 度 计算 成 为 一 个 量 待 解决 的 问题 。 

在 科学 研究 前 沿 探测 、 研 究 主 题 演 化 、 主 题 聚 类 
识别 等 情报 学 研究 领域 ,文本 相似 度 计算 也 无 处 不 
在 。 具 体 来 讲 , 通过 文本 相似 度 计算 可 以 发 现 : 不 同 
研究 主题 之 间 的 相互 关联 影响 情况 ; 不 同时 间 段 内 


情报 学 研究 领域 ,可 以 利用 此 方法 充分 挖掘 文本 内 容 
关系 ,从 而 可 以 帮助 提升 科技 情报 研究 的 准确 性 和 前 
脆性 。 目 前 , 基于 向 量 空 间 模 型 相似 度 计算 方法 存在 
语义 信息 缺失 ,向量 维 度 过 高 ,基于 本 体 语义 相似 度 
计算 方法 又 存在 过 分 依赖 外 在 本 体 的 问题 。 因 此 , 本 
文 尝试 利用 语义 组 块 标 注 信息 改进 Cosine 相似 度 计算 
方法 ,以 期 提升 文本 相似 度 计算 性 能 。 


2 相关 研究 
在 文本 相似 度 计算 领 域 主要 计算 方法 归纳 起 来 可 
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以 分 为 三 种 : 基于 几何 向 量 空间 的 计算 方法 ; 基于 词 
项 统计 的 计算 方法 ; 基于 本 体 的 计算 方法 。 
2.1 基于 几何 向 量 空间 的 方法 

基于 几何 向 量 空间 的 文本 相似 度 计算 方法 的 基础 
是 将 需要 计算 相似 度 的 文档 以 向 量 空间 模型 (Vector 
Space Model YSM) 表 示 。 向量 空间 模型 是 由 信息 检索 
领域 著名 专家 Salton 等 提出 , 并 成 功 地 应 用 于 著名 的 
SMART 文本 检索 系统 站。 

在 向 量 空间 模型 中 , 文档 被 映射 到 由 词 项 构成 的 
几何 空间 中 。 向 量 空间 模型 可 以 用 公式 (1D) 表 示 。 

D= D1, W; D, W,;.…; TD,, WW) (1) 

其 中 ,DCDoczwmer 办 表示 文档 ; T(Term) 表 示 文 档 中 
的 词 项 ; 玖 12ei 风 表示 词 项 在 文档 中 的 权重 ; n 为 文档 
中 的 词 项 数量 。 

利用 几何 向 量 空间 计算 相似 度 的 模型 主要 有 : 欧 
几 里 得 距离 (Euclidean Distance) 和 余弦 相似 度 (Cosine 
Similarity) 
2.2 ”基于 词 项 统计 的 方法 

与 基于 几何 向 量 空间 模型 计算 方法 不 同 , 基于 词 
项 统计 的 计算 方法 主要 考虑 词 项 在 文本 中 所 占 的 比 
例 , 如 果 两 个 文档 中 所 共同 包含 的 词 项 越 多 , 那么 这 
两 个 文档 就 越 相 似 。 基 于 此 项 统计 的 方法 主要 有 两 种 
思路 。 

(1) 基于 重 有 登 词 的 方法 

该 方法 认为 两 段 文本 所 构成 的 词 或 短语 重 琶 个 数 
越 多 则 两 段 文本 的 相似 度 就 越 大 。 这 种 方法 的 最 具 代 
表 性 算法 是 Jaccard 相似 度 系 数 方 法 趾 。 

此 外 ,基于 重合 词 思想 上 实现 的 算法 还 有 简单 词 
重合 法 由、IDF 重合 法 外 以 及 Zipfian 重 羡 法 71。 

(2) TF-IDF 及 其 各 种 加 权 算 法 

TF-IDF (Term Frequency-Inverse Document 
Frequency) 是 一 种 统计 方法 , 用 以 评估 一 个 字 词 对 于 
一 个 文件 集 或 一 个 语料库 中 的 其 中 一 份 文件 的 重要 程 
度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 
增加 , 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 
下 降 。 

利用 TF-IDF 各 种 形式 加 权 的 代表 方法 有 LSA™、 
HALM、Islam 等 的 方法 中 以 及 Allan 等 提出 的 方法 0 等 。 


Dhttp://wordnet.princeton.edu/. 


2.3 基于 本 体 的 方法 

基于 本 体 的 文本 语义 相似 度 计算 方法 主要 是 利用 
本 体 库 或 语义 词典 内 蕴含 的 丰富 的 语义 信息 来 提高 文 
本 语义 相似 度 。 该 方法 可 以 归纳 为 三 种 。 

(1) 基于 本 体 库 边 距离 的 计算 方法 

大 多 本 体 库 或 语义 词典 (如 WordNet ) 将 相关 词 
和 概念 词组 织 在 一 棵 或 几 棵 树 状 的 层次 结构 中 ,在 一 
棵 树 状 图 中 ,任何 两 个 节点 之 间 可 以 通过 一 条 路 径 
连接 , 并 且 这 条 路 径 是 唯一 的 。 基 于 本 体 库 边 深度 的 
计算 方法 认为 ,这 条 路 径 的 长 度 可 以 衡量 这 两 个 节 
点 (词语 、 概 念 ) 间 语义 距离 。 随 着 概念 所 在 的 节点 距 
离 根 节点 越 深 , 其 所 包含 的 语义 信息 越 丰富 。 代 表 算 
法 由 有 : Rada 等 (4 、Leacock 等 中 、Pekar 等 111。Rada 
等 认为 衡量 两 个 概念 词 间 的 相似 度 可 以 通过 计算 其 
在 本 体 分 类 体系 树 中 的 最 短 距离 获得 "了 1。 后 来 对 
Rada 上 距离 的 改进 主要 集中 在 Rada 所 有 边 的 距离 同等 
重要 的 假设 改进 1。 

(2) 基于 本 体 库 节 点 的 计算 方法 

与 基于 边 计 算 相 似 度 思 路 不 同 , 基于 节点 的 相似 
度 主要 考虑 文本 中 的 词 或 词组 在 本 体 库 中 概念 的 对 应 
关系 ,从 而 计算 语义 相似 度 。 基 于 本 体 库 节 点 的 计算 
方法 根据 对 节点 的 计算 方法 不 同 可 以 分 为 基于 节点 特 
征 策 略 和 基于 信息 焙 的 策略 。 基 于 节点 特征 策略 思想 
来 源 于 Tversky! 提出 的 特征 模型 (Feature-model)。 在 
本 体 库 中 主要 是 考虑 当前 节点 的 父亲 节点 以 及 往 上 的 
祖先 节点 和 根 节点 。 

(3) 混合 计算 方法 

混合 方法 是 将 本 体 库 中 基于 边 的 计算 策略 和 基于 
节点 的 计算 策略 共同 考虑 建立 起 来 的 一 种 方法 。 通 常会 
通过 对 边 、 节 点 的 权重 调节 计算 文本 的 相似 度 5 9 。 

由 于 语言 的 差异 ， 中 文 文本 相似 度 计算 研究 主要 
是 根据 中 文 特点 提出 相关 相似 度 计算 模型 挛 ”。 

综 上 所 述 , 在 相似 度 计算 方法 上 ， 基 于 几何 向 量 
空间 的 计算 方法 和 基于 词 项 统计 的 计算 方法 都 忽略 
了 词 项 本 身 的 语义 信息 。 在 计算 过 程 中 主要 依据 词 项 
是 否 都 会 出 现在 两 段 文本 中 ,而 且 要 求 词 项 必须 完 
全 相同 。 由 于 同一 个 概念 可 能 会 以 不 同 的 表达 方式 出 
现 (如 “计算 机 ?可 以 表述 为 "电脑 ” “笔记本 ?等 ) 或 同 
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一 词 项 在 不 同 的 上 下 文 有 不 同 的 语义 解释 (如 苹果” 
可 以 是 一 种 水 果 , 也 有 可 能 是 手机 )， 这 种 情况 下 会 
严重 影响 相似 度 计 算 的 准确 性 。 此 外 ,基于 向 量 空间 
模型 的 方法 在 处 理 长 文档 的 时 候 ， 由 于 文档 过 长 , 生 
成 的 向 量 空间 维度 过 高 ,在 计算 文本 相似 度 的 时 候 
可 以 度量 的 词 项 过 少 ， 从 而 造成 文档 相似 度 计算 不 
够 准确 。 基 于 本 体 的 计算 方法 在 一 定 程度 上 克服 了 上 
述 两 种 方法 的 缺点 , 但 是 需要 依赖 外 在 本 体 库 或 语 
义 词典 。 

因此 , 为 了 克服 向 量 空 间 模型 语义 信息 缺失 、 向 
量 维度 过 高 以 及 基于 本 体 语 义 相 似 度 计算 方法 依赖 


在 科技 文本 数据 中 还 存在 另外 一 种 情况 , 文本 论 
述 的 词汇 字面 相同 , 但 是 所 起 到 的 语义 角色 不 同 ,如 
S3 和 S4 两 个 句子 。 


S3: The main goal of this NSF project is to improve Chemical 
Vapor Deposition method. 

S4: The main goal of this NSF project is apply Chemical Vapor 
Deposition method to develop SWCNT. 


两 个 句子 都 提 到 了 “Chemical Vapor Deposition 
method” 这 种 方法 , 但 是 在 S3 中 该 组 块 的 语义 角色 是 
“研究 目的 ”在 S4 中 该 组 块 的 语义 角色 是 一 种 “研究 
方法 ”研究 如 何 利 用 该 方法 制备 “ 单 壁 碳 纳 米 管 ， 
SWCNT”, 如 图 2 所 示 。 


外 在 本 体 的 问题 ,本 文 提出 一 种 基于 语义 组 块 特征 
的 改进 Cosine 文本 相似 度 计 算 方 法 。 该 方法 与 向 量 
空间 模型 相 比 ,能 够 在 一 定 程度 上 反映 文档 的 语义 
信息 , 并 且 可 以 通过 语义 向 量 空间 分 割 有 效 降低 向 
量 空间 模型 维度 。 与 基于 本 体 的 计算 方法 相 比 , 该 方 
法 不 需要 外 部 的 本 体 库 支持 , 模型 的 泛 化 能 力 得 到 


提高 。 


3 ”基于 语义 组 块 特征 的 改进 Cosine 文本 
相似 度 计算 


3.1 语义 组 块 特征 分 析 

文本 中 经 常 存 在 这 样 的 情况 ， 即 文本 论述 的 内 
容 词汇 大 部 分 相同 ， 只 有 部 分 词汇 不 同 。 但 是 正 是 这 
些 不 同 的 词汇 具有 极 强 的 语义 功能 .如 S1 和 S2 两 个 
句子 。 


S1: The main goal of this NSF project is to develop new class of 
hybrid composite Structures. 

S2: The main goal of this NSF project is to develop new class of 
singlewalled carbon nanotube. 


两 名 中 前 13 个 词汇 完全 一 致 ， 只 是 后 3 个 词汇 不 
同 , 正 是 这 后 面 3 个 词汇 说 明了 该 项 目的 研究 目的 有 
着 根本 的 不 同 , 本文 将 这 3 个 词汇 定义 为 “研究 目的 ” 
语义 组 块 ， 如 图 1 所 示 。 


The main goal of 研 完 目的 不 同 e main goal of this 
NSF project is to NSF project is to 


develop new class of develop new class of 
hybrid composite singlewalled carbon 
structures. nanotube. 


图 1 不 同 研究 目的 语义 组 块 
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The main goal of1 研究 目的 |Thf 二 人、 | ofthis NSF 
NSF project is to = pr 研究 方法 Chemical 
improve Chemical Vapor 
Deposition method. 


VaforDeposition method 
to develop SWCNT 


图 2 具有 不 同 语义 角色 的 语义 组 块 


3.2 ”改进 Cosine 相似 度 计算 方法 
为 了 利用 上 述 语义 组 块 特征 提升 文本 相似 度 性 
能 ,本 文 提出 一 种 基于 语义 组 块 特征 的 文本 相似 度 计 
算 方 法 。 
假设 4,8 两 个 项 目 文档 , 4 文档 中 有 nn 个 词语 , B 
文档 中 有 m 个 词语 ,如 公式 (2) 所 示 。 
A= {Ws Ws Win} 


(2) 


B= {Ww1, Ws" Wim} 


其 中 ,4,B 分 别 表 示 两 个 项 目 文档 ; wii ,win 
表示 文档 4 中 的 所 有 词语 ; wz,w22,…wzm 表示 文档 B 
中 的 所 有 词语 。 

根据 文本 中 的 不 同 语义 组 块 角色 信息 ， 比 如 可 以 
文本 中 蕴含 的 “研究 目的 "、“ 研 究 方 法 ”、“ 实 验 设 备 ”、 
“实验 材料 ”等 语义 组 块 信息 , 将 上 述 空间 划分 为 不 同 
语义 角色 的 文本 向 量 表示 ,如 公式 (3) 所 示 。 

A= {wii, Was Wn PSCIU {wi, Ws win SC2… 
U wi wa, Wn }SCn 
B= {Ww wy SCLUTw wy Wm}SC2... 


U {wi ws Wn}SCn 


(3) 
其 中 ,4,B 分 别 表 示 两 个 不 同 的 科技 文档 ; 
Town scl 表示 文档 4 中 属于 SC1 语义 角色 特 
征 的 词汇 集合 ，{wnywi2…wixz sc 表示 文档 4 中 属于 


SCn 语义 角色 特征 的 词汇 集合 。 以 此 类 推 。 

由 于 Cosine 距 离 计算 函数 在 文本 相似 度 计算 方面 
表现 出 的 良好 性 能 外 ,本文 利用 Cosine 相似 度 计 算 函 
数 ， 结合 前 面 标注 出 的 语义 组 块 特征 , 将 向 量 空间 进 
行 了 “研究 目标 ”“ 研 究 方法 ”等 语义 功能 分 割 , 并 在 此 
基础 上 实现 项 目 文档 数据 语义 相似 度 计算 模型 ， 如 公 
式 (4) 所 示 。 


n 


£| 之 (4x 已 ) 
Sim_ semantic( A, B) = > 和 四 


| i 


其 中 ,Sim_semantic(4，B) 表 示 两 个 项 目 文 档 4,B 
之 间 的 语义 相似 度 ; j 为 语义 组 块 特征 ,jE€ {SC1， 
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SC2,…, SCn}; n 为 文档 中 词 项 的 数量 ; 4; 表 示 项 目 文档 
4 中 的 第 i 个 词 项 ; B; 表 示 项 目 文档 8 中 的 第 i 个 词 项 。 


4 实验 


4.1 数据 集 

本 文 从 美国 自然 科学 基金 网 站 "上 在 项 目标 题 和 摘 
要 中 出 现 “Carbon Nanotube” 或 “CNT” 关 键 字 为 检索 策 
略 进行 检索 ,总 共 得 到 615 条 数据 ,并 对 其 进行 语义 组 
块 标注 3。 每 个 项 目 数据 大 概 包含 500 个 单词 。 为 了 验 
证 本 文 提 出 的 方法 是 否 能 够 有 效 提升 文本 之 间 语 义 相 
似 度 计算 效能 ， 从 中 随机 选取 6 个 项 目 数据 进行 人 工 判 
读 , 再 利用 本 文 提出 的 方法 进行 实验 , 验证 本 文 提出 方 
法 的 有 效 性 。 这 6 个 项 目的 基本 信息 如 表 1 所 示 。 


表 1 NSF 项 目 基本 信息 


AwardNumber Title Program(s) 
ENERGY FOR 
0933141 Novel Catalyst ts f ter Electrolysis: E i tal Th tical Studi 
ovel Catalyst Supports for Water Electrolysis: Experimental and Theoretical Studies SUSTAINABILITY 


SBIR Phase I: Low Density Carbon Fibers Based on Gel Spun Polyacrylonitrile/ 


0945004 SMALL BUSINESS PHASEI 
Carbon Nanotube 
汉 SOLID STATE & MATERIALS 
1007793 Mr 0 | ee Systems for Carbon Nanotube (CNT) CHEMIS, OFFICE OF SPECIAL 
ynthesis and their Underlying Mechanisms PROGRAMS-DMR 
BIR PF I: Manufacturi f Double-Wall rbon Nanotube/Rigid Rod 
1046519 S hase anufacturing ol ouble-Walled Carbon Nanotube/Rigid Ro SMALL BUSINESS PHASEI 
Polymer Advanced Structural Fibers 
1133117 Collaborative Research: Experimental and Theoretical Investigations of Catalysis on CATALYSIS AND 
Carbon Nanotube Surfaces For Selective Liquid Fuel Generation BIOCATALYSIS 
1434824 DMREF: Engineering Strong, Highly Conductive Nanotube Fibers Via Fusion DMREF 


4.2 ”实验 平台 

硬件 环境 : CPU: Intel®@Core™Mi5-3317U 1.70GHz; 
内 存 : 4.00GB; 操作 系统 : Windows7 旗舰 版 64 位 ; 
软件 环境 : Python4.3。 


Preprocessing 


CSVReader Strings To Docume 


NSF 项 目 数据 


Punctuation Erasure N Chars Fitter 


一 革 


Node 41 Node 42 


Node 49 


Number Fitter Case converter 


Node 43 


4.3 ”实验 过 程 

(1) 数据 预 处 理 

利用 Knime 开源 工具 对 文本 进行 词 干 还 原 、 词 性 
标注 以 及 停 用 词 去 处 等 预 处 理 ， 如 图 3 所 示 。 


Stop word Fitter Snowball Stemme 


Node #4 


图 3 数据 预 处 理 


Dhttps://www.nsf.gov/. 
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预 处 理 完成 后 将 所 有 数据 存储 到 CSV 文 件 中 供 下 一 

(2) 语义 组 块 标注 

利用 CRFSuite 开源 工具 ",， 基于 条 件 随 机 场 模型 
对 实验 数据 进行 语义 组 块 标注 , 标注 出 “研究 目的 ”、 
“实验 材料 ”6 种 语义 组 块 类 型 , 为 后 续 人 研究 提供 数据 
集 支 持 , 标注 好 的 数据 如 图 4 所 示 。 与 语义 组 块 标注 
相关 详细 内 容 请 参考 文献 [24]。 


S8930B-SUE this DT B-NP NlOlT7TOONN_15 
9891I-SUB proiject NN I-NE Niol7oooN_15 
8892 B-ACT will nD B-YP NidlT7TOOON_15 
9893|I-ACT develop WB I-YP Niol7ToOON_15 
8894|B-eOL a rT B-NP Nldl7TOOON_15 
9895 | I-COL comprehensive JJ I-NP Nlol7ToOOON_15 
9896 I-G0L full-systenm NN I-NE Niol7oooN_15 
9897|I-BOL simulation NH I-NP Niul7TOOON_15 
9898 I-GOL infrastructure MH I-NP NlOl7TOONN_15 
585 引 I-coL that WT B-NP Niol7oooN_15 
S900I-GOL consists YEZ BYP NOl7DooN_15 
9901 I-COL of IN B-PP Nlol7TOOON_15 
S902II-o0L PCN NNP _B-NP Nol7oooN_ 15 


图 4 语义 组 块 标注 结果 (部 分 ) 


G) 基于 语义 组 块 的 改进 Cosine 相似 度 计算 

通过 Python 平台 , 利用 sklearn 开源 工具 包 中 的 
cosine similarity 模块 实现 基于 语义 组 块 的 改进 
Cosine 相似 度 计算 , 核心 代码 如 下 。 


from sklearn.metrics.pairwise import cosine_similarity 

data path =r'E:\ SIM EXPERIMENT\sim txt_semantic_1' 
filelist=0s.listdir(data_path) 
filenames=[os.path.join(data_path,f) for fin filelist] 
vectorizer = CountVectorizer(input='filename') 

dtm = vectorizer.fit_transform(filenames) 
vocab=vectorizer.get_feature names () 

vocab=np.array (vocab) 


dist_cos = cosine_similarity(dtm) 


(4) 相似 度 计算 结果 可 视 化 展示 

为 了 直观 展示 出 不 同文 本 之 间 采 用 不 同 相 似 度 计 
算 相 似 度 结果 变化 情况 , 利用 matpolotlib 工具 包 对 相 
似 度 计算 结果 在 三 维 层面 和 二 维 层面 进行 可 视 化 展示 。 
4.4 结果 分 析 

经 过 上 述 实验 步骤 得 到 实验 结果 ， 如 表 2 所 示 。 


Dhttp://www.chokkan.org/software/crfsuite/. 
Dhttp://scikit-learn.org/stable/. 
Dhttps://matplotlib.org/. 
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第 一 列 和 第 二 列 为 项 目 文档 编号 , 第 三 列 (Raw_sim) 
为 原始 项 目 文本 余弦 相似 度 计算 结果 ， 第 四 列 
(Sem_sim) 为 本 文 提 出 的 基于 语义 组 块 特征 的 项 目 文 
本 Cosine 相似 度 计 算 结 果 , 第 五 列 (Increase) 给 出 了 本 
文 提出 的 基于 语义 组 块 特征 的 项 目 文本 余弦 相似 度 计 
算 结 果 比 原始 项 目 文本 余弦 文本 相似 度 计算 结果 的 提 
升 情况 。 


表 2 相似 度 计算 实验 结 


Doc id Doc id Raw sim Sem sim Increase 
“0933141” “0945004’ 0.39 0.51 12% 
‘0933141’ “1007793” 0.63 0.71 8% 
“0933141” “1046519”， 0.68 0.73 5% 
“0933141” “1133117’ 0.42 0.69 27% 
“0933141” “1434824” 0.46 0.68 22% 
“0945004” “1007793” 0.4 0.51 11% 
“0945004” “1046519? 0.52 0.63 11% 
‘0945004” “1133117” 0.26 0.51 25% 
“0945004” “1434824” 0.46 0.58 12% 
“1007793” “1046519” 0.63 0.74 11% 
‘1007793” “1133117” 0.49 0.74 25% 
“1007793” ‘1434824’ 0.52 0.68 16% 
“1046519” “1133117” 0.42 0.67 25% 
“1046519” “1434824” 0.37 0.73 16% 
“1133117” “1434824’ 0.4 0.66 26% 


表 3 为 6 个 项 目 数据 主要 研究 内 容 的 人 工 判读 结 
果 。 通 过 实验 结果 发 现 本 文 提出 的 基于 语义 组 块 特征 
的 项 目 文本 相似 度 比 原始 文本 相似 度 计算 性 能 有 一 定 
程度 的 提高 。 其 中 , ‘1133117’ 项 目 与 其 他 5 个 项 目的 相 
似 度 比例 提升 最 多 。 分 析 其 原因 “1133117’ 项 目 主 要 研 
究 的 是 关于 增强 碳纤维 (Carbon Fiber)/ 磋 纳米 管 
(Carbon NanoTube, CNT) 分 散 颗粒 的 催化 效率 的 问题 。 
在 这 个 研究 项 目 中 既 涉及 到 碳纤维 (Carbon Fiber)/ 碳 
纳米 管 (Carbon NanoTube，CNT) 又 涉及 到 催化 剂 
(Catalysts) 的 问题 , 所 以 该 项 目 与 其 他 5 个 项 目 均 有 一 
定 程 度 的 联系 。 


表 3 ”人工 判 读 结果 


项 目 编号 项 目 主要 研究 内 容 
人 开发 一 种 新 的 纳米 唱 (Nano-Crystalline) 混 合金 属 氧化 物 催化 剂 (Oxide Catalyst),， 能够 获得 理想 的 导电 性 和 电化 学 特 
性 。 该 项 目 还 能 够 帮助 理解 在 电化 学 过 程 中 纳米 材料 结构 对 电化 学 稳定 性 和 活性 的 影响 。 
利用 凝 胶 纺 丝 技术 (Gel Spun Technology) 开 发 一 种 高 强度 - 低 密 度 的 碳 纳米 管 (Carbon NanoTube，CNT) 基 碳纤维 
0945004 ”(Carbon Fiber)。 该 纤维 的 拉 伸 强度 大 于 7Gpa, 拉 伸 模 量 大 于 450Gpa， 密 度 小 于 1.2g/cm 。 该 纤维 可 以 广泛 应 用 于 卫 
星 、 飞 机 机 身 、 机 崭 以 及 高 性 能 汽车 中 。 
O03 将 探寻 石墨 烯 (Graphene) 和 碳 纳 米 管 (Carbon NanoTube，CNT) 对 氧化 物 催 化 剂 (Oxide Catalyst) 影 响 机 制 ， 并 关注 新 的 
在 氧化 物 催 化 剂 (Oxide Catalysb 新 的 增长 变量 。 
oe 利用 高 度 结晶 (Crystaline) 的 双 壁 碳 纳 米 管 (Double Wall Carbon Nanotube, DWCNT) 制 备 具备 高 强度 和 韧性 的 新 一 代 结 
构 纤 维 。 该 纤维 可 以 为 车 辆 防弹 、 商 业 航 空 航天 等 领域 提供 强度 更 高 、 重 量 更 轻 的 结构 纤维 材料 。 
1133117 研究 矶 纳米 管 (Carbon NanoTube, CNT) 本 身 做 为 非 均 相 催化 反应 (Heterogeneous Catalysis) 尤 其 是 在 FT 催化 反应 中 的 
催化 剂 (Catalysts) 的 作用 。 增 强 碳纤维 (Carbon Fiber)/ 碳 纳米 管 (Carbon NanoTube, CNT) 分 散 颗粒 的 催化 效率 。 
1434824 一 种 新 型 碳 纳米 结构 (Carbon Nanostructure) 工 程 过 程 ， 称 为 纳米 管 融 合 (NanoTube Fusion)。 该 方法 可 以 创建 高 性 能 的 


碳纤维 (Carbon Fiber), 可 以 应 用 于 航空 航天 、 高 功率 密度 的 能 量 存储 和 轻 质 布线 等 领域 。 


为 了 直观 地 表达 各 项 目 文档 之 间 的 相似 度 关系 ， 
本 文 在 三 维 空间 上 标 出 了 各 项 目 文档 所 处 的 位 置 ， 如 
图 5 所 示 。 每 个 点 代表 每 个 项 目 文档 , 文档 之 间 的 距 
离 代表 的 文档 之 间 的 相似 度 ， 如 果 两 个 文档 距离 越 近 ， 
那么 说 明 这 两 个 文档 就 越 相似 。 


120 
0945004 15 
10 
Do 1434824 5 
14133117 0 
5 
007793 | = 
9933141 1s 
20 
20 1 a 
-20 _15 nc 2 
10 5 C10 
10 7152520 
(a) 原始 项 目 数据 文本 相似 度 
十 30 
D945004 1 0 
i046519 T10 
1007793 434624 二 
d133117 + -10 
+ -20 
0933141 十 -30 
+540 
上 30 
-20 15 10 一 05 


0 5 10 1 20 3555201500 
(b) 基于 语义 组 块 特征 的 项 目 数据 文本 相似 度 
图 $ 语义 相似 度 距 离 对 比 


图 5(a) 是 原始 项 目 文 本 之 间 的 相似 度 距 离 ， 图 5(b) 
为 经 过 语义 组 块 标注 后 的 相似 度 距 离 。 可 以 看 出 , 图 
5(a) 中 各 个 项 目 比 较 分 散 , 很 难看 出 不 同文 档 之 间 的 
主题 相似 度 关系 。 图 5(b) 中 可 以 明显 发 现 各 个 项 目 文 
档 都 向 中 心 靠 拢 ， 各 个 项 目 之 间 的 距离 也 相应 缩小 。 
变化 最 大 的 是 ‘1133117’ 项 目 , 明显 地 向 ‘1007793’ 项 目 
靠近 。 通 过 分 析 发 现 '1007793' 项 目 研 究 的 是 探寻 石 
烯 (Graphene) 和 碳 纳 米 管 (Carbon NanoTube，CNT) 对 
氧化 物 催化 剂 (Oxide Catalysb 影 响 机 制 ， 并 关注 新 的 
在 氧化 物 催化 剂 (Oxide Catalyst) 新 的 增长 变量 。 
“1133117’ 项 目 主 要 研究 的 是 关于 增强 碳纤维 (Carbon 
Fiber)/ 碳 纳米 管 (Carbon NanoTube，CNT) 分 散 颗 粒 的 
众 化 效率 的 问题 。 两 个 项 目 都 是 研究 碳 纳米 管 在 催化 
剂 领域 的 问题 , 由 于 研究 目的 一 致 ， 所 以 两 个 项 目 聚 
拢 在 一 起 。 
图 5(b) 中 变化 比较 明显 的 还 有 “1046519 ”和 
“1434824’ 两 个 项 目 , 这 两 个 项 目 明 显 聚 拢 在 一 起 。 通 
过 进一步 分 析 发 现 ‘1046519’ 项 目 研究 的 是 利用 高 度 
结晶 (Crystaline) 的 双 壁 碳 纳 米 管 (Double Wall Carbon 
NanoTube，DWCNT) 制 备 具备 高 强度 和 韧性 的 新 一 代 
结构 纤维 。'1434824' 项 目 研究 的 是 一 种 新 型 碳 纳 米 
结构 (Carbon NanoStructure) 工 程 过 程 ， 称 为 纳米 管 融 
合 (NanoTube Fusion)。 该 方法 可 以 创建 高 性 能 的 碳 纤 
维 (Carbon Fiber)， 可 以 应 用 于 航空 航天 、 高 功率 密度 
的 能 量 存储 和 轻 质 布线 等 领域 。 正 是 由 于 两 个 项 目 研 
究 的 都 是 碳 纳米 管 在 材料 纤维 方面 的 应 用 ， 所 以 被 


Data Analysis and Knowledge Discovery 


聚拢 在 一 起 。 

为 了 对 这 6 个 项 目 数据 相似 度 进行 两 两 对 比 , 图 
6 给 出 了 6 个 项 目 数据 间 的 层次 距离 关系 。 图 6(a) 是 
原始 项 目 文本 之 间 的 层次 距离 关系 , 图 6(b) 为 经 过 语 


1046519 


0933141 


1133117 


0945004 


一 一 1007793 
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(a) 原始 项 目 数据 层 聚 类 结果 


1434824 


通过 深入 分 析 这 些 项 目 就 会 发 现 : 

(1) 第 一 组 中 ,“1046519’ 项 目 主要 研究 利用 高 度 
结晶 (Crystaline) 的 双 壁 碳 纳 米 管 (Double Wall Carbon 
NanoTube,，DWCNT) 制 备 具备 高 强度 和 韧性 的 新 一 代 
结构 纤维 。 而 "0933141’ 项 目 研究 开发 一 种 新 的 纳米 蝇 
(Nano-Crystalline) 混合 金属 氧化 物 催 化 剂 (Oxide 
Catalyst)， 能够 获得 理想 的 导电 性 和 电化 学 特性 。 这 两 
个 项 目的 研究 目的 有 着 根本 不 同 。 

(2) 第 二 组 中 ,“1133117’ 主 要 研究 的 是 关于 增强 
碳纤维 (Carbon Fiber/ 碳 纳米 管 (Carbon NanoTube， 
CNT) 分 散 颗粒 的 催化 效率 的 问题 。'0945004" 项 目 研 究 
利用 凝 胶 纺 丝 技 术 (Gel Spun Technology) 开 发 一 种 高 
强度 - 低 密度 的 碳 纳 米 管 (Carbon NanoTube, CNT) 基 碳 
纤维 (Carbon Fiber)。 一 个 人 研究 催化 剂 , 一 个 研究 碳 纤 
维 ,两 个 项 目的 研究 目的 也 不 一 样 。 

分 析 产 生 这 种 现象 的 原因 , 本文 认 为 , 在 利用 余 
弦 相 似 度 计算 过 程 中, 将 文本 数据 生成 向 量 空间 模型 
(VSM), 在 VSM 中 把 所 有 词语 的 重要 程度 等 同 看 待 ， 
并 目 忽 略 各 词语 的 语义 特性 。 由 于 在 NSF_CNT 数据 
集中 的 项 目 数据 都 是 研究 碳 纳 米 管 领域 的 项 目 , 在 词 
汇 分 布 上 都 会 出 现 诸如 “Carbon” “NanoTube” 等 共性 
词语 ,所 以 利用 传统 的 余弦 相似 度 计 算 模 型 难以 将 这 
些 项 目 数 据 真正 的 语义 相似 度 计 算出 来 。 
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义 组 块 标注 后 的 层次 距离 关系 。 可 以 看 出 在 没有 进行 
语义 组 块 标注 之 前 进行 余弦 相似 度 计算 时 ， 有 两 组 关 
系 最 为 紧密 的 项 目 分 别 为 "1046519: 和 “0933141;; 
‘1133117? 和 “0945004”。 


1133117 


1007793 


0945004 


1434824 


1046519 


0933141 


图 6 文本 相似 度 两 两 对 比 结果 
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(b) 基于 语义 组 块 特征 的 项 目 数据 层 聚 类 结果 


在 图 6(b) 中 , 可 以 同样 发 现 两 组 最 为 紧密 的 数据 
分 别 为 :“1133117? 和 “1007793”;“1046519? 和 “1434824”。 
这 与 图 5(b) 中 的 结果 是 一 致 的 。 

(1) 第 一 组 中 ,“1133117? 和 1007793” 两 个 项 目 都 
是 研究 催化 剂 的 问题 ,两 个 项 目的 区 别 只 是 在 研究 方 
法 和 思路 上 不 同 。“1133117’ 项 目 主 要 研究 碳 纳 米 管 
(Carbon NanoTube，CNT) 本 身 做 为 非 均 相 催化 反应 
(Heterogeneous Catalysis) 尤 其 是 在 FT 催化 反应 中 的 催 
化 剂 (Catalysts) 的 作用 。‘1007793’ 项 目 主要 探寻 石墨 烯 
(Graphene) 和 碳 纳米 管 (Carbon NanoTube，CNT) 对 氧 
化 物 催化 剂 (Oxide Catalyst) 影 响 机 制 问题 。 

(2) 第 三 组 中 ,‘1046519? 和 “1434824’ 两 个 项 目 都 
是 研究 碳纤维 的 问题 , 而 且 应 用 领域 也 基本 集中 在 商 
业 航 空 航天 等 领域 。 两 个 项 目 追 求 的 强度 、 密 度 等 技 
术 参 数 指 标 也 基本 一 致 。 两 个 项 目的 区 别 也 是 在 研究 
方法 和 思路 上 不 同 。'1046519" 研 究 利 用 高 度 结晶 
(Crystaline) 的 双 壁 碳 纳 米 管 (Double Wall Carbon 
NanoTube，DWCNT) 制 备 具备 高 强度 和 韧性 的 新 一 代 
结构 纤维 。 该 纤维 可 以 为 车 辆 防弹 、 商 业 航 空 航 天 等 
领域 提供 强度 更 高 、 重 量 更 轻 的 结构 纤维 材料 。 
“1434824" 人 研究 的 重点 是 一 种 新 型 碳 纳米 结构 (Carbon 
NanoStructure) 工 程 过 程 ， 称 为 纳米 管 融 合 (NanoTube 
Fusion) 。 该 方法 可 以 创建 高 性 能 的 碳纤维 (Carbon 
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Fiber), 可 以 应 用 于 航空 航天 、 高 功率 密度 的 能 量 存 储 
和 轻 质 布线 等 领域 。 


S 结 语 


与 原始 余弦 相似 度 计算 模型 相 比 ,本 文 提出 的 基 
于 语义 组 块 特征 的 改进 Cosine 文 本 相似 度 计算 方法 可 
以 有 效 提升 文本 间 语 义 相似 度 。 此 外 ,由 于 该 模型 能 
够 区 分 句子 中 词汇 的 语义 角色 ,可 以 有 效 消除 噪音 数 
据 的 影响 , 并 且 可 以 降低 向 量 空 间 模型 维度 ,提升 计 
算 效率 。 与 基于 本 体 的 计算 方法 相 比 ， 该 模型 不 需要 
外 部 的 本 体 库 支 持 , 模型 的 泛 化 能 力也 得 到 提高 。 有 
效 的 文本 相似 度 计 算 方 法 可 以 发 现 不 同文 档 之 间 的 相 
互 关系 , 通过 计算 基金 项 目 数据 或 者 论文 文本 之 间 的 
相似 度 可 以 有 效 地 挖掘 出 文本 之 间 存 在 的 主题 关联 
性 ,进而 可 以 深入 分 析 识 别 科技 创新 过 程 中 的 知识 扩 
散 过 程 、 新 兴 研 究 前 沿 主题 出 现 等 。 下 一 步 将 开展 针 
对 不 同 语义 组 块 分 别 进行 不 同 权重 的 文本 相似 度 计算 
研究 ， 从 不 同 维度 分 析 文 本 相似 度 , 实现 文本 相似 度 
细 粒 度 分 析 。 
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Abstract: [Objective] This paper aims to improve the performance of Cosine text similarity computing method with 
the help of text semantic chunk feature. [Methods] First，we retrieved the project data of carbon nanotubes studies， 
which were pre-processed with stemming and POS techniques. Then, we identified the semantic chunk of text contents 
with the conditional random field model. Third, we calculated the similarity of texts based on semantic chunk feature. 
Finally, we compared our results with those generated by the unlabeled data. [Results] The proposed method improved 
the performance of Cosine similarity calculation by up to 26%. [Limitations] Our study relies on semantic chunks to 
annotate the computing performance. [Conclusions] The proposed method could effectively identify similar texts, and 
reduce the dimensions of vector space model, which improves the computing efficiency. The new method is robust and 
could be transferred to other fields. 
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